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[摘要 ] 

目前 的 图 书 管理 系统 ， 没 有 把 图 书 检 索 和 图 书 推荐 结合 起 来 ， 本 文 介绍 的 
图 书 管理 系统 ， 对 图 书 进行 了 分 类 ， 提 供 了 按 书 名 、\ 作者 进行 检索 ， 在 检索 结果 
页 面 中 ， 显 示 推 荐 结果 。 本文 介绍 了 该 图 书 管理 系统 的 设计 ， 该 网 站 的 推荐 系统 
采用 了 基于 物品 的 协同 过 滤 算 法 、 基 于 内 容 的 推荐 算法 ， 本 文 详细 介绍 了 这 两 个 
算法 ， 接 着 ， 本 文 全 面 介绍 了 该 图 书 管理 系统 中 推荐 系统 部 分 的 设计 。 现在， 该 
图 书 管理 系统 已 经 完成 了 概要 设计 和 详细 设计 。 
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[Abstract] 

The current library management system, did not combine searching book with 
recommending book , library management system described in this paper, the books 
were classified, and provides a search by title, author, and from the search results page 
and displays the results. This article introduced the design of books management 
system management system, the site recommendation system based on collaborative 
filtering, content-based recommendation algorithm, these algorithms are described in 
detail in this paper, then, this article provides an overview of the recommended 
system design of the library management system. Now that the library management 
system has completed the preliminary design and detailed design. 
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一 、 图 书 管 理 系统 的 介绍 


书籍 是 人 类 进步 的 阶梯 ， 书 籍 已 成 为 传播 知识 、 科 学 技术 和 保存 文化 的 重 
要 工具 。 
由 于 图 书 的 非常 多 ， 本 文 设计 的 图 书 管理 系统 ， 收 录 的 图 书包 括 电 子 技术 、 


计算 机 科学 技术 、 图 书 情报 等 领域 的 图 书 ， 收 录 的 图 书 有 相对 经 典 的 图 书 ， 如 
经 典 的 教材 名 著 ， 还 有 最 新 技术 的 图 书 ， 如 云 计算 、 移 动 互 联网 等 ,本 文 提出 的 
设计 方案 ， 把 图 书 检 索 和 图 书 推荐 结合 起 来 ， 是 实验 性 的 方案 ， 用 来 论证 图 书 
检索 和 图 书 推荐 结合 的 效果 。 


二 、 现 有 的 图 书 管理 系统 简 述 


2.1、 北 京 大 学 图 书馆 检索 系统 


北京 大 学 图 书馆 的 馆藏 宏大 丰富 、 学 科 齐 全 、 珍 品 苓 荣 。 到 2011 年 底 ， 文 
献 资源 累积 量 约 1,100 余 万 册 ( 件 ) ， 其 中 纸 质 藏书 800 余 万 册 ， 以 及 近年 来 大 
量 引 进 和 自 建 的 国内 外 数字 资源 ， 包 括 各 类 数据 库 、 电 子 期 刊 、 电 子 图 书 和 多 媒 
体 资源 约 300 余 万 册 〈 件 ) 。 

检索 结果 中 ， 图 书 的 详情 页 面包 括 图 书 封面 、 书 名 、 作 者 、 出 版 日 期 、 索 书号 、 
总 页 数 、 馆 藏 所 在 地 、 借 阅 状况 。 

图 书 的 详情 页 面 没 有 推荐 信息 。 

2、 清 华 大 学 图 书馆 检索 系统 


华 大 学 图 书馆 的 馆藏 ， 到 2013 年 底 ， 总 量 约 有 463.0 万 册 〈 件 ) ， 形 成 


站 
以 自然 科学 和 工程 技术 科学 文献 为 主体 ， 兼 有 有 人文、 社会 科学 及 管理 科学 文献 等 
多 种 类 型 、 多 种 载体 的 综合 性 馆藏 体系 。 除 中 外 文 图 书 外 ， 馆 藏 资源 还 包括 : 古 
籍 线装 书 、 期 刊 、 本 校 博士 硕士 论文 、 缩 微 资料 等 。 

检索 结果 有 检索 列表 ， 检 索 列 表 页 面 有 图 书 封面 ， 可 以 预约 ， 图 书 详情 页 
面 ， 包 括 作 者 、 书 名 、 出 版 社 、 出 版 日 期 、 摘 要 、 目 录 、 馆 藏 所 在 地 、 借 阅 状 况 、 图 书 
封面 。 

图 书 的 详情 ; 
2.3、 当 当 网 


当当 网 (www.dangdang.com) 是 全 球 知名 的 综合 性 网 上 购物 商城 。 图 书 是 
当当 网 的 主 营业 务 之 一 ， 在 库 图 书 、 音 像 商品 超过 80 万 种 。 目前 当当 网 的 注册 用 
户 遍 及 全 国 32 个 省 、 市 、 自 治 区 和 直辖 市 。 

检索 结果 有 检索 列表 ， 检 索 列 表 页 面 有 图 书 封 面 ， 图 书 详情 页 面 ， 包 括 图 
书 封 面 、 书 名 、 作 者 、 出 版 社 、 出 版 日 期 ISBN、 页 数 、 摘 要 、 作 者 简介 、 目 录 、 在 线 试 
读 。 


图 书 的 详情 页 面 提供 了 两 种 推荐 数据 : “看 过 本 商品 的 还 看 了 “、“ 买 过 本 


沁 


面 没 有 推荐 信息 。 


品 的 还 买 了 ”。 
三 、 图 书 管 理 系统 设计 


图 书 管理 系统 ， 包 括 了 搜索 、 推荐 系统 ， 本 文 重点 介绍 推荐 系统 "1 ， 推 荐 


算法 采用 基于 物品 的 协同 过 滤 算 法 。 

数据 存储 在 关系 数据 库 中 ， 本 文采 用 MySql 数据 库 ， 为 了 加 快 检 索 速 度 ， 
创建 了 Lucene 索引 ， 检 索 时 ， 从 Lucene 索引 中 读 取 数据 。 

Web Server 采用 Tomcat。 
在 系统 的 最 前 端 ， 配 置 了 Squid， 来 进行 反 向 代理 ， 通 过 反 向 代理 来 进行 
负载 均衡 ， 部 署 了 两 套 系 统 ， 包 括 数 据 库 、Lucene 索引 、web server， 数 据 库 、 
Lucene 索引 、web server 这 两 套 系统 是 一 致 的 。 数 据 库 的 操作 是 追加 ， 可 以 实时 
进行 ，Lucene 索引 、web server 代码 的 更 新 是 轮流 在 凌晨 更 新 的 。 


浏览 检索 系统 


图 1、 图 书 管理 系统 


图 书 数据 表 存 储 着 图 书 的 数据 ， 包 括 书 名 、 作 者 、 出 版 社 出 版 日 期 .ISBN、 页 
数 、 摘 要 、 作 者 简介 、 前 言 、 目 录 。 图 书 的 封面 文件 部 署 在 文件 系统 中 。 

作者 数据 表 存 储 着 作者 名 字 、 作 者 简介 

出 版 社 数据 表 存 储 着 出 版 社 名 字 、 出 版 社 简介 。 

书 名 、 作 者 、 出 版 社 数据 表 提 供 数据 给 浏览 检索 系统 ， 为 了 加 快 检索 速度 ， 
创建 了 索引 。 

志 系 统 对 于 推荐 系统 是 很 重要 的 。 

用 户 通过 用 户 界面 进行 浏览 检索 时 ， 把 用 户 的 行为 写 入 日 志 了 ; 用 户 通过 
用 户 界面 借阅 时 ， 把 用 户 的 行为 也 写 入 日 志 了 。 

本 文 的 推荐 系统 是 根据 用 户 的 日 志 来 计算 并 返回 推荐 吉 果 ， 推 荐 结果 展示 
是 图 书 的 详细 信息 界面 的 “浏览 本 书 资料 的 还 浏览 了 ”、“ 借 阅 本 书 的 还 借阅 
了 ”两 个 模块 部 分 。 


四 、 推 荐 算法 简 述 


图 书 的 数目 非常 多 ， 从 大 量 图 书 中 找到 自己 感 兴趣 的 图 书 是 一 件 相对 困难 
的 事情 。 推荐 系统 的 任务 是 联系 用 户 和 信息 ， 一 方面 帮助 用 户 发 现 对 自己 有 价值 
的 信息 ， 男 一 方面 让 信息 能 够 展现 在 对 它 感 兴趣 的 用 户 面前 。 

本 系统 采用 的 推荐 算法 中 是 基于 物品 的 协同 过 滤 算 法 和 基于 内 容 的 过 滤 算 


法 。 基 于 内 容 的 过 滤 算 法 采用 基于 向 量 的 表示 方法 ， 即 余弦 定理 。 
算法 的 步骤 如 下 : 先 用 基于 物品 的 协同 过 滤 算 法 计算 出 物品 列表 ;接着 用 
余弦 定理 对 这 个 物品 列表 再 进行 排序 。 


4.1、 基 于 物品 的 协同 过 滤 算 法 


本 系统 中 的 物品 ， 指 的 是 图 书 。 

基于 物品 (图书) 的 协同 过 滤 算 法 主要 分 为 两 步 : 
1、 计 算 图 书 之 间 的 相关 度 ; 
2、 根 据 图 书 的 相关 度 和 用 户 的 历史 行为 给 用 户 生 成 推荐 列表 。 
物品 相似 度 的 公式 : 


由 = NOINTNODIM NO NO 
其 中 NGQ) 是 喜欢 图 书 i 的 用 户 数 ，N(7) 是 喜欢 图 书 j 的 用 户 数 。 


计算 物品 相似 度 的 步 又 : 

1)、 建 立 用 户 -图 书 倒 排 表 〈 即 每 个 用 户 建立 一 个 他 喜欢 的 图 书 的 列 
表 ) ; 

2)、 对 于 每 个 用 户 ， 把 他 图 书 列表 中 的 图 书 两 两 在 共 现 矩阵 C 中 加 
1， 其 中 CI 中 记录 了 同时 喜欢 图 书 i 和 图 书 7 的 用 户 数 。 

3)、 把 矩阵 C 归 一 化 ， 得 到 图 书 之 间 的 余弦 相似 度 矩 阵 到。 
在 得 到 图 书 之 间 的 相似 度 后 ， 通 过 如 下 公式 计算 用 户 & 对 一 个 图 书 的 兴 
趣 : 


P= WR 


uj ji ui 
iEN(u)NS(I,K) 


这 里 N(u) 是 用 户 喜 欢 的 图 书 的 集合 。 S(i, 久 ) 是 和 图 书 i 最 相似 的 KK 个 图 


书 的 集合 ， Wi 是 图 书 j 和 i 的 相似 度 ， hi 是 用 户 u 对 图 书 i 的 兴趣 。 


这 些 计算 是 在 离线 的 情况 下 计算 的 。 
这 样 ， 可 以 构造 图 书 一 图 书 的 倒 排 索引 。 


4.2、 余 弦 定 理 
余弦 定理 ， 需 要 预先 把 词汇 表 导 入 到 数据 库 中 ， 设 这 个 词汇 表 的 总 数 为 


m 


主要 分 为 四 步 : 
1、 对 于 图 书 摘要 和 前 言 中 的 所 有 实 词 ， 计 算 它们 的 TF/ IDF( 单 文本 词 
汇 频 率 / 道 文本 频率 值 〉; 

2、 按 照 这 些 实 词 在 词汇 表 的 位 置 对 它们 的 TF /IDF 值 排序 ; 

3、 如 果 词 汇 表 中 的 某 个 词 在 图 书 摘要 和 前 言 中 没有 出 现 ， 对 应 的 值 为 零 
那么 这 词汇 表 的 总 数 m， 组 成 一 个 m 维 的 向 量 。 我 们 就 用 这 个 向 量 来 代表 这 
本 图 书 ， 并 成 为 图 书 的 特征 向 量 。 如 果 两 本 图 书 的 特征 向 量 相 近 ， 则 对 应 的 
图 书 内 容 相 似 ， 它 们 在 推荐 列表 的 排名 位 置 就 接近 。 

4、 用 余弦 定理 ， 来 计算 向 量 的 相似 度 ， 设 图 书 了 和 图 书 了 的 对 应 癌 量 分 


别 是 2 和 ,y,,…s》,， 问 量 夹 角 的 余弦 等 于 ， 


CosO = xy + xp tet Xp /NX tx tt My ty +.+y, ) 


当 两 本 图 书 向 量 夹 角 的 余弦 等 于 1 时， 这 两 本 图 书 完全 重复 ; 当 夹 角 的 
余弦 接近 于 一 时 ， 两 本 图 书 相 似 ， 从 而 在 推荐 列表 的 排名 位 置 就 接近 ;， 夹 角 
的 余弦 越 小 ， 两 本 图 书 在 推荐 列表 的 排名 位 置 就 越 远 。 


五 、 推 荐 系统 设计 


下 面 是 推荐 系统 "的 架构 图 ， 说 明了 数据 的 流向 。 


j 户 行为 数据 库 


初始 推荐 结果 


ee TF/IDF 向 量 


TF/IDF 向 量 
最 终 推荐 结果 


领域 词汇 表 


物品 特征 向 量 


特征 图 书 


相关 推荐 


余弦 计 


图 2、 推荐 系统 设计 


用 户 的 特征 包括 两 种 ， 一 种 是 从 用 户 的 注册 信息 中 提取 出 来 的 ， 即 用 户 的 
人 口 统计 学 特征 ， 另 一 种 特征 主要 是 从 用 户 的 行为 中 计算 出 来 。 
一 个 物品 特征 向 量 由 特征 以 及 特征 的 权重 组 成 ， 在 计算 时 需要 考虑 以 下 因 


Be 


、 用 户 行为 分 为 浏览 图 书 、 借 阅 图 书 两 种 ， 其 中 借阅 图 书 的 权重 大 。 

2 用 户 行为 产生 的 时 间 ， 用 户 近 期 的 浏览 、 借 阅 行为 比较 重要 。 
、 用户 行 为 的 次 数 ， pe 
ss 。 浏 览 次 数 多 的 图 书 对 应 的 特征 权重 
高 ， 一 本 图 书 的 浏览 人 数 越 多 ， 则 应 的 熙 镍 权重 训 越 高 ， 对 于 同 


一 本 书 ， 借 阅 图 书 的 特征 权重 比 浏 览 图 书 的 特征 权重 高 。 
4、 i a 有 可 能 是 跟风 ， 
能 对 该 图 书 没 有 太 大 的 兴趣 ， 因 此 ， 对 于 不 热门 图 书 的 权重 高 。 
让 和 到 用 户 的 特征 向 攻 斌 我 们 可 以 根据 离线 的 相关 表 得 到 初始 的 图 书 推 
荐 列表 ， 其 存储 格式 如 下 所 示 : 
特征 标识 、 图 书 标 识 、 书 名 、 作 者 、 权 重 
在 得 到 初步 的 推荐 列表 后 ， 需 要 过 滤 掉 不 符合 要 求 的 图 书 一 质量 不 好 的 图 
书 。 


O 


经 过 过 滤 后 的 推荐 结果 ， 采 用 基于 内 容 的 推荐 算法 进行 下 一 步 推荐 。 
对 于 图 书 摘要 和 前 言 中 的 所 有 实 词 ， 计算 它们 的 TF/IDF ( 单 文 本 词汇 频 
率 / 逆 文本 频率 值 ) ， 按 照 这 些 实 词 在 词汇 表 的 位 置 对 它们 的 TF /IDF 值 排序 ， 
i 接着 用 余弦 定理 计算 向 量 相 似 度 。 
最 后 生成 最 终 推荐 列表 ， 这 推荐 列表 时 离线 生成 的 ， 为 了 加 快 查询 速度 ， 把 
这 些 推荐 列表 的 数据 写 入 Lucene 索引 中 。 


六 、 总 结 


本 文 首先 介绍 了 图 书 管理 系统 的 需求 ， 接 着 简 述 了 现 有 的 图 书 管理 系统 ,在 这 些 的 基础 
上 ,介绍 了 图 书 管理 系统 的 设计 ， 并 说 明了 基于 物品 的 协同 过 滤 算 法 和 基于 内 容 的 过 滤 全 
法 ， 接 着 说 明了 推荐 系统 的 设计 方案 。 
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